使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字

本來有點懶得寫這篇，不過這幾天無意間發現，從我把筆記由 HackMD 搬家到 GitHub Pages 後，點閱數最高的竟然是之前寫的簡單測試使用 WhisperDesktop 將語音轉成文字。考量到 WhisperDesktop 其實已經有點過時，所以決定還是來更新一下目前的解決方案。

1 月時找了一些本地執行的 AI 工具來玩，在語音轉文字 (STT) 的部分發現了更好的選擇——Whisper Standalone。

它提供了三個版本：

Faster-Whisper：輕量基礎版，適合單純只需要轉錄文字的使用者。
Faster-Whisper-XXL (推薦)：作者主力維護的版本。額外支援 Speaker Diarization (區分說話者) 與翻譯功能，適合需要整理多人會議記錄的情境。
Faster-Whisper-XXL Pro：提供給贊助者的特別版。

當初嘗試安裝 Faster-Whisper-XXL 時，一直無法正常執行，推測可能又是 Python 影音相關套件的相依性問題（之前玩 TTS 時，也被類似問題搞到）。

後來決定改用 Subtitle Edit 透過整合的方式來使用它，過程相對順利許多。

Faster Whisper 是什麼？

Faster Whisper 是基於 CTranslate2（一個支援 Transformer 模型的快速推論引擎）所實作的 Whisper 重新編寫版本。

與原始的 OpenAI Whisper 相比，Faster Whisper 的優勢在於：

速度更快
- 效能提升約 4 倍以上。
記憶體佔用更少
- 透過 8-bit 量化技術，大幅降低 VRAM 需求。

對於希望在本地端執行 Whisper 且不希望造成系統卡頓的使用者來說，Faster Whisper 是效能較好的選擇。

Subtitle Edit

Subtitle Edit 本身是一款強大的字幕編輯軟體，支援整合 Faster Whisper 功能，可以直接將其作為自動語音辨識工具使用。

整合方式

開啟 Subtitle Edit，選擇上方選單的 「視訊 (Video)」 -> 「Audio to text (Whisper)...」。
點擊後若尚未安裝 ffmpeg，系統會提示下載，點擊確認即可。
在 Engine 選項中選擇 「Purfview's Faster-Whisper-XXL」。
- 若未安裝對應組件，會跳出下載 Whisper 的訊息，同樣選擇下載。
在 Choose model 下拉選單中下載想要使用的模型。
- 建議選擇 faster-whisper-large-v3 或 faster-whisper-large-v3-turbo。
TIP
模型差異說明：
- Large-v3
  - 目前準確度最高的模型，參數最多。
  - 推論速度較慢，需要較多的記憶體。
- Large-v3-Turbo
  - 這是 v3 的「蒸餾 (distilled)」版本，將解碼層 (Decoder Layers) 從 32 層減少到 4 層。
  - 雖然參數減少了約 48%，但速度提升了約 8 倍，且在英文辨識的準確度上與完整版幾乎無異。
設定完成後，將要轉換的影音檔案拖入或點擊加入，最後按下 「Generate (產生)」 即可開始辨識。
TIP
檔案選擇視窗預設可能只顯示視訊檔案，如果想轉換 mp3 等音訊檔，記得將檔案類型過濾器調整一下。
轉檔完成後，字幕會直接顯示在 Subtitle Edit 的編輯介面中。
- 可直接進行校對與修改，完成後再另存即為與檔名相同的字幕檔。

實測結果

以之前使用 WhisperDesktop 的測試數據作為基準：

測試環境：PNY RTX 4070 Ti Super 16GB Blower
測試素材：5 分 16 秒的 mp3 檔案
WhisperDesktop 測試數據：
使用 ggml-large-v3.bin
耗時 22 分 01 秒（且不一定成功，偶爾會轉出空白）。
使用 ggml-medium.bin
耗時 11 秒。

這次改用 Subtitle Edit 整合 Faster-Whisper-XXL 進行測試，硬體環境與檔案皆相同：

Subtitle Edit 測試數據：
- 使用 large-v3-turbo
  - 約 16 秒。
- 使用 large-v3
  - 約 32 秒。

TIP

由於 Subtitle Edit 轉檔完畢後不會保留時間紀錄，以上數據為手動計時的結果。

從數據來看，Turbo 版（16 秒）雖然略慢於之前舊版 WhisperDesktop 使用 Medium 模型（11 秒），但讓我比較驚訝的是 Large-v3 竟然能在 32 秒內跑完，這在舊版工具上幾乎是無法想像的速度提升。

至於轉出的品質，Large v3 確實比 Medium 好，但並沒有我想像中提升那麼多。推測原因可能是這次測試的檔案是歌曲，受到背景音樂干擾，加上演唱時為了配合音調調整發音，本來就比較難辨識。話說回來，光是這個執行速度，拿來當作本地端的語音轉字工具，我覺得也夠用了。

異動歷程

2026-01-30 初版文件建立。

筆記目錄

使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字

Faster Whisper 是什麼？

Subtitle Edit

整合方式

實測結果

異動歷程

筆記標籤

雲翼的技術隨筆

快速導航

聯絡方式

筆記目錄

使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字 ​

Faster Whisper 是什麼？ ​

Subtitle Edit ​

整合方式 ​

實測結果 ​

異動歷程 ​

筆記標籤

相關筆記

簡單測試使用 WhisperDesktop 將語音轉成文字

淺談 Copilot CLI 工具的 Autopilot 與 YOLO 模式機制與額度陷阱

從 Google AI Pro 降額事件，淺談 Google 的策略轉向

淺談 AI Prompt 的正向引導與負向約束

雲翼的技術隨筆

快速導航

聯絡方式

使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字

Faster Whisper 是什麼？

Subtitle Edit

整合方式

實測結果

異動歷程